Speech representation learning has improved both speech understanding and speech synthesis tasks for single language. However, its ability in cross-lingual scenarios has not been explored. In this paper, we extend the pretraining method for cross-lingual multi-speaker speech synthesis tasks, including cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing. We propose a speech-text joint pretraining framework, where we randomly mask the spectrogram and the phonemes given a speech example and its transcription. By learning to reconstruct the masked parts of the input in different languages, our model shows great improvements over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework is end-to-end for both the training and the inference without any finetuning effort. In cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing tasks, our experiments show that our model outperforms speaker-embedding-based multi-speaker TTS methods. The code and model are publicly available at PaddleSpeech.
translated by 谷歌翻译
尽管流媒体助手系统已在许多应用中使用,但该系统通常集中于不自然的单次交互,假设来自单个语音查询的输入毫不犹豫地或不足。但是,除了反弹之外,常见的对话说法通常涉及多个转弯的查询。这些疏远包括暂停思考,犹豫,延长单词,填补的停顿和重复的短语。这使得通过对话演讲进行语音识别,其中包括有多个查询,这是一项具有挑战性的任务。为了更好地建模对话互动,至关重要的是,歧视汇率和查询的结束至关重要,以使用户能够在用户完成时,同时使系统尽快做出响应,以使用户保持地板的折衷。在本文中,我们提出了一个基于端到端(E2E)语音识别器的转折预测指标。我们的最佳系统是通过共同优化ASR任务并检测用户何时停止思考或完成口语来获得的。所提出的方法显示,在预测真正的转弯率的97%以上的召回率和85%的精度率中,在设计集中仅100毫秒延迟,设计了4种类型的对话说法中插入4种散布。
translated by 谷歌翻译
现有的光场(LF)深度估计方法通常将深度估计视为回归问题,该回归问题是由像素的L1损失在回归的差距图和地面图之间监督的。但是,差异图只是差异分布的一个子空间投影(即期望),而后者对于模型学习更为必要。在本文中,我们提出了一种简单而有效的方法,通过充分利用深网的力量来学习子像素差异分布。在我们的方法中,我们在子像素水平上构建成本量,以产生更精细的深度分布,并设计不确定性感知的局灶性损失,以监督差异分布,以接近地面图。广泛的实验结果证明了我们方法的有效性。我们的方法称为亚焦点,在HCI 4D LF基准测试的99个提交算法中排名第一,就所有五个精度指标(即BadPix0.01,BadPix0.01,badpix0.03,badpix0.07,MSE和Q25)而言,这是第一位。胜过最近最新的LF深度方法,例如OACC-NET和ATTMLFNET。代码和型号可在https://github.com/chaowentao/subfocal上找到。
translated by 谷歌翻译
对于许多在线平台(例如,视频共享网站,电子商务系统),学习动态用户的偏好已成为越来越重要的组成部分,以提出顺序建议。先前的工作已经做出了许多努力,以基于各种体系结构(例如,经常性的神经网络和自我注意机制)对用户交互序列进行建模项目项目过渡。最近出现的图形神经网络还用作有用的骨干模型,可在顺序推荐方案中捕获项目依赖性。尽管它们有效,但现有的方法却远远集中在具有单一相互作用类型的项目序列表示上,因此仅限于捕获用户和项目之间的动态异质关系结构(例如,页面视图,添加最佳选择,购买,购买)。为了应对这一挑战,我们设计了多行为超毛力增强的变压器框架(MBHT),以捕获短期和长期跨型行为依赖性。具体而言,多尺度变压器配备了低级别的自我注意力,可从细粒度和粗粒水平的共同编码行为感知的顺序模式。此外,我们将全局多行为依赖性纳入HyperGraph神经体系结构中,以自定义的方式捕获层次长期项目相关性。实验结果证明了我们MBHT在不同环境中的各种最新推荐解决方案的优势。进一步的消融研究证明了我们的模型设计和新MBHT框架的好处的有效性。我们的实施代码在以下网址发布:https://github.com/yuh-yang/mbht-kdd22。
translated by 谷歌翻译
及时调整是将预训练的语言模型调整为下游任务的一种新兴方法。但是,现有的研究主要是为输入序列增加提示。由于中间多头自我注意和馈送网络计算,因此这种方式无法正常工作,从而使模型优化不是很好。因此,我们提出了一种称为“图层调整”的新颖调整方式,旨在在变压器层中添加可学习的参数。具体而言,我们专注于变压器中的馈电网络的图层调整,即FLANing。它将其他单元引入每个馈送网络的隐藏层。我们对公共线索基准进行了广泛的实验。结果表明:1)在几乎所有情况下,我们的FL-tuning tospormports促进了全数据和少量设置下的调整方法。特别是,它在WSC 1.0上的准确性提高了17.93%(全数据设置),而F1上的精度则提高了P-Tuning V2上的Cluener上的精度(几乎没有射击设置)。 2)我们的FL-调整更稳定,收敛速度比P-Tuning V2快约1.17倍。 3)只有大约3%的变压器参数要训练,因此在大多数数据集中进行了微调,并且在几个数据集上的微调(例如,WSC 1.1上的准确性提高了12.9%)。源代码可从https://github.com/genggui001/fl-tuning获得。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
实时投标(RTB)是现代在线广告系统中的重要机制。广告商在RTB中采用投标策略来优化其广告效果,但根据各种财务要求,其中广泛采用的是投资回报(ROI)约束。在顺序招标过程中,ROI在非单调的情况下变化,通常在约束满意度和客观优化之间具有透视作用。通常在静态或轻微变化的市场中建立了约束 - 目标权衡解决方案。但是,由于无法适应不同的动态和部分可观察性,这些方法在非平稳广告市场中大大失败。在这项工作中,我们专门研究非机构市场的ROI限制招标。基于部分可观察到的马尔可夫决策过程,我们提出了第一个容纳非单调约束的硬屏障解决方案。我们的方法利用了无参数指标的奖励功能,并开发了课程指导的贝叶斯强化学习(CBRL)框架,以适应在非平稳广告市场中的约束目标权衡。在具有两个问题设置的大规模工业数据集上进行的广泛实验表明,CBRL在分布和分发数据制度方面都很好地概括了,并且具有出色的稳定性。
translated by 谷歌翻译
步态是长距离识别个体的最有前途的生物识别技术之一。尽管大多数以前的方法都集中在识别轮廓上,但直接从RGB图像中提取步态特征的几种端到端方法表现更好。但是,我们证明了这些端到端方法可能不可避免地会遭受步态液化的噪音,即低级纹理和丰富多彩的信息。在实验上,我们设计了跨域评估以支持这种观点。在这项工作中,我们提出了一个名为Gaitedge的新颖端到端框架,该框架可以有效地阻止步态 - 近距离信息并发布端到端训练潜力。具体而言,Gaitede合成了行人分割网络的输出,然后将其馈送到随后的识别网络中,在该网络中,合成轮廓由身体的可训练边缘和固定内部室内装饰组成,以限制识别网络接收的信息。此外,对齐轮廓的步态嵌入了盖地,而不会失去不同的性能。关于CASIA-B和我们新建的TTG-200的实验结果表明,Gaitedge明显优于先前的方法,并提供了更实用的端到端范式。所有源代码均可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
卡尔曼滤波器广泛用于对象跟踪,其中过程和测量噪声通常被认为是准确的已知和恒定的。然而,确切的已知和常量假设并不总是在实践中保持。例如,当LIDAR用于跟踪非合作目标时,在不同距离和天气条件下测量噪声不同。另外,过程噪声随对象的运动状态而变化,尤其是当跟踪对象是行人时,并且过程噪声更频繁地改变。本文提出了一种新的估计校正校正闭环估计方法,用于在线估算卡尔曼滤波器过程和测量噪声协方差矩阵。首先,我们将噪声协方差矩阵分解为元素分布矩阵和噪声强度,并改善Sage滤波器以估计元素分布矩阵。其次,我们提出了一种校准方法来准确地诊断噪声强度偏差。然后,我们提出了一种正确的方法来在线自适应地校正噪声强度。第三,在假设系统是可检测的情况下,在数学上证明了所提出的方法的无偏偏差和收敛。仿真结果证明了所提出的方法的有效性和可靠性。最后,我们将建议的方法应用于多对LIDAR的跟踪并在官方Kitti服务器上进行评估。在基提步行者多元object跟踪排行榜上提出的方法(http://www.cvlibs.net/datasets /kitti/eval_tracking.php)超越了使用激光雷达的所有现有方法,证明了在实际应用中的方法的可行性。这项工作提供了一种提高卡尔曼滤波器和多功能跟踪性能的新方法。
translated by 谷歌翻译
发现危险场景在测试中至关重要,进一步改善驾驶政策。然而,进行有效的驾驶政策测试面临两个关键挑战。一方面,在测试训练有素的自主驾驶策略时,自然遇到危险情景的可能性很低。因此,通过纯粹的现实世界的道路测试发现这些情景非常昂贵。另一方面,这项任务需要正确确定事故责任。收集错误归属责任的情景将导致过度保守的自治驾驶策略。更具体地说,我们的目标是发现是自主车辆负责(AV-Orderible),即测试驾驶政策的脆弱性的危险场景。为此,这项工作通过基于多智能体增强学习来查找AV负责的方案(星)提出了安全测试框架。星星指导其他交通参与者生产AV-Consocalize情景,并通过引入危险仲裁奖励(Har)来制作不受检测的驾驶政策行为不端行为。哈尔使我们的框架能够发现多样化,复杂和AV负责任的危险场景。针对三种环境中四种不同驾驶政策的实验结果表明星星可以有效地发现AV负责任的危险情景。这些方案确实对应于测试驾驶策略的漏洞,因此对其进一步的改进是有意义的。
translated by 谷歌翻译